Tính ưu tiên về mặt logic trong việc kiểm chứng
Suy luận thống kê vốn dĩ mang tính có điều kiện. Mọi kết luận chúng ta rút ra về tham số $\theta$ đều bị ràng buộc nghiêm ngặt bởi giả định rằng dữ liệu quan sát được $s$ đã được sinh ra từ một phân bố nào đó trong mô hình giả thuyết của chúng ta $\mathcal{M} = \{P_\theta : \theta \in \Theta\}$.
Ước lượng: Giả định rằng $P_{true} \in \mathcal{M}$ và tìm kiếm tham số "tốt nhất" $\theta$ (ví dụ: ước lượng cực đại khả năng $\hat{\theta}$). Nó hoạt động bên trong trong mô hình.
Kiểm tra mô hình: Làm mềm giả định rằng mô hình là đúng. Nó đặt câu hỏi liệu bất kỳ $\theta \in \Theta$ nào có thể giải thích các mẫu trong dữ liệu. Nó hoạt động trên trong mô hình.
Crisis về Tính liên quan (Bẫy thống kê)
Nếu phân bố thật sự tạo ra dữ liệu nằm ngoài mô hình thống kê $\mathcal{M}$, thì $\theta$ sẽ mất đi ý nghĩa khoa học. Chúng ta rơi vào một bẫy thống kê: tính liên quan của mọi suy luận tiếp theo trở nên nghi ngờ. Chúng ta thực chất đang tính toán các thuộc tính của một hiện tượng toán học hư cấu thay vì một thực tại vật lý.
Ví dụ 9.1.1: Mô hình Chuẩn vị trí
Hãy xem xét trường hợp đơn giản nhất khi chúng ta giả sử $X_i \sim N(\theta, 1)$.
Chúng ta tính trung bình mẫu $\bar{x}$. Trong mô hình chuẩn, $\bar{x}$ là ước lượng tối ưu cho 'trung tâm' của dữ liệu.
Giả sử dữ liệu thực tế chứa các giá trị ngoại lệ cực đoan hoặc tuân theo phân bố có đuôi nặng phân bố Cauchy. Dù chúng ta vẫn có thể tính toán $\bar{x}$ một cách máy móc, nhưng nó không còn đại diện cho trung tâm của phân bố theo cách có ý nghĩa. Các khoảng tin cậy của chúng ta sẽ quá hẹp một cách nguy hiểm, dẫn đến sự tự tin sai lầm vì mô hình chuẩn là không hợp lệ.